新功能和改进：更多模型支持和许多实用增强

2024年3月14日 · 阅读需 3 分钟

Yue Zhang

founder of EvalsOne

我们很高兴地宣布了一一系列更新，包括更多模型的支持和很多实用的功能增强。具体如下：

模型支持更新:

增加了对Amazon Bedrock和Groq平台上模型的支持，扩大了可评估模型的范围。
与Ollama集成，允许您通过隧道评估本地模型，打破了评估的地域限制。
扩展了中文模型提供商，新增了8个选项：百度文心、ChatGLM、MoonShot、阿里通义千问、百川、讯飞、天工和MiniMax。这为评估中文模型提供了更多选择。

功能增强:

您现在可以导出样本和变量，方便数据的归档和共享。
克隆运行时具有更大的灵活性，支持多级别克隆，满足不同场景的需求。
在创建/克隆运行时，可以自定义温度和最大令牌数，实现更精细的控制。
为私有模型设置最大线程数，优化资源利用。
保存对话消息为模板样本，加快后续评估的准备工作。
启用手动评估并支持评分，为主观评估提供便利。
新增平均完成时间和模型生成稳定性指数(MGSI)作为新的基准报告指标。
这些更新为用户提供了更多模型选择、更好的定制化能力和更高的效率。如果您有任何疑问，欢迎随时与我们联系。EvalsOne将继续致力于改进和创新，为AI模型评估提供更出色的体验。

这些功能能够帮助您更好地评估和优化大型语言模型的提示语，提高AI应用的质量和用户体验。我们希朥您能够喜欢这些更新，也期待您的反馈和建议。

EvalsOne的内测计划正在进行中，现在可以加入我们的waitlist，第一时间体验先进的提示语评估平台，并利用它开始构建更好的AI应用。快行动起来吧！